Telegram Group »
United States »
Библиотека собеса по Data Science | вопросы с собеседований » Telegram Webview
Please open Telegram to view this post
VIEW IN TELEGRAM
Это три типа механизмов
🔍 MCAR
📌 Пример:
✅ Что делать:
🔍 MAR
📌 Пример:
✅ Что делать:
🔍 MNAR
То есть в данных есть систематическая причина, скрытая внутри пропуска.
📌 Пример:
✅ Что делать:
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Пропущенные значения (NaN, пустые ячейки)
—
—
—
—
📌 Вывод
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🥵 Устали от статей, где эйчары рассказывают, как на самом деле выглядит рынок труда в ИТ?
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Высокий variance в другом сегменте: в областях с редкими или шумными данными модель может давать сильно изменяющиеся прогнозы, что говорит об переобучении и чувствительности к шуму.
🛠
—
—
—
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда данные со временем «плывут» (то есть меняется их распределение),
🔍
1.
— Чтобы он отражал текущее состояние данных, а не прошлое.
2.
— Особенно в потоковых системах: метрики качества считаются по «живым» данным, а не по статичному отрезку.
3.
— Если обнаружили drift, стоит не просто дообучить модель, а пересобрать или адаптировать её с учётом новых данных.
⚠️ Подводный камень:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса
Когда классы сильно несбалансированы, модельможет вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.
🛠 Какс этим справиться
1. Усиливаемвклад миноритарного класса в функцию потерь
—Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.
2. Применяемрегуляризацию на неразмеченных данных
—Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.
3. Активныйотбор редких примеров среди неразмеченного пула
—Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.
4. Анализируемпредсказания модели на неразмеченных данных
—Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.
Библиотека собеса по Data Science
Когда классы сильно несбалансированы, модель
🛠 Как
1. Усиливаем
—
2. Применяем
—
3. Активный
—
4. Анализируем
—
Библиотека собеса по Data Science
❓ Что делать, если в обучающем наборе для методов на основе соседей часть меток отсутствует или указана неполностью
Методы, основанные на ближайших соседях (например, k-NN), предполагают, чтокаждая обучающая точка имеет метку. Отсутствие меток усложняет обучение и прогнозирование, особенно если таких точек много.
📝 Варианты решений
1. Игнорировать объекты без меток
Можно обучаться только на размеченных примерах, но при этом теряется часть данных, что особенно критично при малом объёме обучающей выборки.
2. Использовать полубезнадзорные методы (semi-supervised)
Например, распространение меток (label propagation): метки итеративно «перетекают» от размеченных точек к близким неразмеченным, если они достаточно похожи.
3. Изучение структуры данных через неразмеченные точки
Даже если метки отсутствуют, сами объекты помогают определить геометрию признакового пространства и уточнить, кто кому «сосед».
📝 Подводные камни:
📝 Полубезнадзорные методы требуют решать, когда доверять сгенерированным меткам — легко получить ложные закономерности.
📝 Если метки отсутствуют не случайно (например, только у сложных или редких объектов), это может внести систематическую ошибку.
📝 Оценка качества модели затрудняется — стандартные метрики предполагают, что мы знаем истинные метки хотя бы на тесте.
📝 Вывод
Если часть меток отсутствует,не всегда стоит их игнорировать. Лучше использовать структуру данных через полубезнадзорные методы и явно учитывать, насколько случайна или предвзята сама пропуск меток.
Библиотека собеса по Data Science
Методы, основанные на ближайших соседях (например, k-NN), предполагают, что
1. Игнорировать объекты без меток
2. Использовать полубезнадзорные методы (semi-supervised)
3. Изучение структуры данных через неразмеченные точки
Если часть меток отсутствует,
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❓ Зачем использовать stratifed sampling при разбиении на обучающую и тестовую выборки
Stratified sampling (стратифицированная выборка) используется длятого, чтобы сохранить пропорции классов (или других важных характеристик) при разбиении данных на обучающую и тестовую части. Это особенно важно, если классы несбалансированы.
Если разбиватьслучайно, есть риск, что тестовая выборка окажется смещённой — например, в ней будет слишком мало примеров миноритарного класса. Это приведёт к некорректной оценке модели: она может показывать хорошую точность на тесте, но при этом плохо распознавать важные, но редкие случаи.
Stratified sampling помогает избежатьэтого перекоса, делая тестовую оценку более надёжной и репрезентативной. Особенно важно использовать этот подход при кросс-валидации и в задачах с дисбалансом классов.
Библиотека собеса по Data Science
Stratified sampling (стратифицированная выборка) используется для
Если разбивать
Stratified sampling помогает избежать
Библиотека собеса по Data Science
😳 Почему дата-сайентисты застревают на уровне «делаю отчеты и строю модельки»
Проблема большинства спецов: вы отлично знаете pandas, sklearn и даже можете настроить нейронку. Но когда дело доходит до создания автономных систем, которые принимают решения без человека — тупик.
При этом большинство курсов по ИИ либо для программистов (и там про API больше, чем про данные), либо академические (теория без практики).
🔥Поэтому мы запускаем курс «AI-агенты для DS-специалистов»
🧐 Что будет на курсе:
— Рассмотрим реализацию памяти в цепочках langchain и создадим пару простых агентов.
— Соберем полный пайплайн RAG-системы с оценкой качества.
— Изучим основные понятия мультиагентных систем (MAS) и библиотеки для их построения.
— Рассмотрим протокол MCP и фреймворк FastMCP, создадим end-to-end приложение.
🎁 В честь запуска курса мы дарим промокод PROGLIBAI на 10 000 ₽ на два других обучения:
— Математика для Data Science
— Алгоритмы и структуры данных
После этих курсов вы перестанете быть «тем, кто делает отчеты» и станете архитектором умных систем. А это совсем другой уровень зарплаты и востребованности.
👉 Успейте использовать промокод и забрать новый курс по приятной цене до 1 июня: https://clc.to/Cttu7A
Проблема большинства спецов: вы отлично знаете pandas, sklearn и даже можете настроить нейронку. Но когда дело доходит до создания автономных систем, которые принимают решения без человека — тупик.
При этом большинство курсов по ИИ либо для программистов (и там про API больше, чем про данные), либо академические (теория без практики).
🔥Поэтому мы запускаем курс «AI-агенты для DS-специалистов»
🧐 Что будет на курсе:
— Рассмотрим реализацию памяти в цепочках langchain и создадим пару простых агентов.
— Соберем полный пайплайн RAG-системы с оценкой качества.
— Изучим основные понятия мультиагентных систем (MAS) и библиотеки для их построения.
— Рассмотрим протокол MCP и фреймворк FastMCP, создадим end-to-end приложение.
🎁 В честь запуска курса мы дарим промокод PROGLIBAI на 10 000 ₽ на два других обучения:
— Математика для Data Science
— Алгоритмы и структуры данных
После этих курсов вы перестанете быть «тем, кто делает отчеты» и станете архитектором умных систем. А это совсем другой уровень зарплаты и востребованности.
👉 Успейте использовать промокод и забрать новый курс по приятной цене до 1 июня: https://clc.to/Cttu7A
SVM может показывать лучшие результаты, когда
Если удаётся подобрать подходящую ядровую функцию, SVM может
⚠️ На что стоит обратить внимание:
— Глубокие нейросети склонны к
— Нейросетям часто нужны хорошие
— SVM проще
📌 Вывод:
Если данных мало, но признаки
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😱 Вся правда об увольнениях в IT в 2025-м
Пока все молчат о том, что происходит на рынке, мы решили выяснить реальную картину. Без прикрас и корпоративного пиара.
Но для этого нам нужна ваша помощь! Мы собираем данные от разработчиков, тестировщиков, менеджеров и всех, кто работает в ИТ, чтобы создать честное исследование о:
— реальных причинах массовых увольнений
— судьбе тех, кто остался за бортом IT-рынка
— том, сколько времени сейчас нужно на поиск работы
Почему это важно? Потому что сила в правде. Зная реальную ситуацию, вы сможете лучше понимать тренды рынка и планировать карьеру.
⚡️Пройдите опрос и помогите всему сообществу: https://clc.to/yJ5krg
Пока все молчат о том, что происходит на рынке, мы решили выяснить реальную картину. Без прикрас и корпоративного пиара.
Но для этого нам нужна ваша помощь! Мы собираем данные от разработчиков, тестировщиков, менеджеров и всех, кто работает в ИТ, чтобы создать честное исследование о:
— реальных причинах массовых увольнений
— судьбе тех, кто остался за бортом IT-рынка
— том, сколько времени сейчас нужно на поиск работы
Почему это важно? Потому что сила в правде. Зная реальную ситуацию, вы сможете лучше понимать тренды рынка и планировать карьеру.
⚡️Пройдите опрос и помогите всему сообществу: https://clc.to/yJ5krg
Хотя методы, основанные на оценке плотности, чаще всего являются полностью безнадзорными, в реальных задачах часто доступна частичная информация от экспертов. Это могут быть:
1.
—
2.
— После работы алгоритма можно применять экспертные правила для фильтрации или повторной оценки найденных аномалий. Например, игнорировать точки, попавшие в известные допустимые диапазоны, даже если модель посчитала их подозрительными.
3.
— Добавить признаки, отражающие экспертные соображения (например, флаги «значение превышает допустимый уровень»), которые помогут алгоритму выявлять аномалии более осознанно.
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👾 AI-агенты — настоящее, о котором все говорят
На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉
Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи!
На обучении вы соберете полноценные LLM-системы с учётом особенностей доменных областей, получите hands-on навыки RAG, Crew-AI / Autogen / LangGraph и агентов.
🎓 В рамках курса вы научитесь:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой
Разберете реальные кейсы и научитесь применять похожие подходы в разных доменных областях, получите фундамент для уверенного прохождения NLP system design интервью и перехода на следующий грейд.
Старт 5 июля, а при оплате до 1 июня действует дополнительная скидка и бонус — эксклюзивный лонгрид по API и ML от Proglib.
Начните осваивать тему уже сейчас 👉 https://clc.to/Cttu7A
На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉
Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи!
На обучении вы соберете полноценные LLM-системы с учётом особенностей доменных областей, получите hands-on навыки RAG, Crew-AI / Autogen / LangGraph и агентов.
🎓 В рамках курса вы научитесь:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой
Разберете реальные кейсы и научитесь применять похожие подходы в разных доменных областях, получите фундамент для уверенного прохождения NLP system design интервью и перехода на следующий грейд.
Старт 5 июля, а при оплате до 1 июня действует дополнительная скидка и бонус — эксклюзивный лонгрид по API и ML от Proglib.
Начните осваивать тему уже сейчас 👉 https://clc.to/Cttu7A
proglib.academy
Курс|AI-агенты для DS-специалистов
На курсе ты разберёшься, как работают AI-агенты и как их применять в работе — от текстовых помощников до систем, помогающих принимать решения. Разберем архитектуру агентов, связку с внешними API, пайплайны действий и популярные библиотеки. Курс включает реальные…
Библиотека собеса по Data Science | вопросы с собеседований pinned «👾 AI-агенты — настоящее, о котором все говорят На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉 Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи! На обучении вы соберете полноценные…»
Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.
Оценка должна включать
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍 Как можно снизить нагрузку на инференс при использовании ансамблей глубоких нейронных сетей
Возможные стратегии:
1️⃣ Дистилляция модели: обучите более компактную «студенческую» нейросеть, которая имитирует выходы ансамбля. Это позволяет значительно сократить время инференса, сохранив при этом качество.
2️⃣ Снижение точности / квантизация : уменьшите разрядность весов и активаций (например, до 8 бит), чтобы ускорить вычисления и уменьшить использование памяти.
3️⃣ Производительное оборудование и параллелизация : если позволяют ресурсы, можно запускать модели параллельно на нескольких GPU или специализированных ускорителях (например, TPU или нейромодулях).
Библиотека собеса по Data Science
Возможные стратегии:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
⏰ Последние 2 дня скидки на курс «AI-агенты для DS-специалистов»
Пока большинство дата-сайентистов строят модели и делают аналитику, рынок уже требует специалистов, которые создают автономные системы на базе ИИ-агентов.
Для этого мы подготовили специальный курс и собрали кучу дополнительного контента, который поможет погрузиться в тему еще глубже. Но чтобы получить все плюшки, успевайте до 1 июня.
🎁 Что вы получите при оплате курса до 1 июня:
— Промокод PROGLIBAIна 10 000 ₽ на курс, чтобы изучать AI-агентов еще выгоднее
— Эксклюзивный лонгрид по API и ML от Proglib
💡Что разберем на курсе «AI-агенты для DS-специалистов»:
— Реализацию памяти в цепочках langchain
— Полный пайплайн RAG-системы с оценкой качества
— Основы мультиагентных систем (MAS)
— Протокол MCP и фреймворк FastMCP
Промокод также действует на курсы «Математика для Data Science» и «Алгоритмы и структуры данных».
👉 Успейте до 1 июня: https://clc.to/Cttu7A
Пока большинство дата-сайентистов строят модели и делают аналитику, рынок уже требует специалистов, которые создают автономные системы на базе ИИ-агентов.
Для этого мы подготовили специальный курс и собрали кучу дополнительного контента, который поможет погрузиться в тему еще глубже. Но чтобы получить все плюшки, успевайте до 1 июня.
🎁 Что вы получите при оплате курса до 1 июня:
— Промокод PROGLIBAIна 10 000 ₽ на курс, чтобы изучать AI-агентов еще выгоднее
— Эксклюзивный лонгрид по API и ML от Proglib
💡Что разберем на курсе «AI-агенты для DS-специалистов»:
— Реализацию памяти в цепочках langchain
— Полный пайплайн RAG-системы с оценкой качества
— Основы мультиагентных систем (MAS)
— Протокол MCP и фреймворк FastMCP
Промокод также действует на курсы «Математика для Data Science» и «Алгоритмы и структуры данных».
👉 Успейте до 1 июня: https://clc.to/Cttu7A